import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
import nltk
import nltk.stem
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report


## importação dos dados ##


## importing data ##


data = pd.read_excel('C:/Users/felip/Desktop/Economia/Backup - Felipe/Economia/Mestrado/Dissertação/Dados/Politics/Dados - Cajueiro/compilação_55_legis.xlsx',  sheet_name='data')

#data = data.dropna(axis=0) # Drop empty lines

print(data.head)
## stop words ##


senator_name = np.array(['ademir', 'andrade', 'flexa','cristovam','crivella','octávio','serys','ideli','salvatti','demóstenes','júlia','mão','papaléo','pavan','santa','heráclito','reguffe','lasier','wilder','cameli','amélia','telmário','cassol','capiberibe','gladson','simone','cidinho', 'lídice','berger','alexandre','fátima','hoffmann','gleisi', 'costa', 'heloisa', 'jucá', 'antonio', 'carlos', 'valadares', 'antonio', 'carlos', 'magalhães', 'arlindo', 'porto', 'artur', 'da', 'tavola', 'benedita', 'da', 'silva', 'beni', 'veras', 'bernardo', 'cabral', 'carlos', 'bezerra', 'carlos', 'patrocínio', 'carlos', 'wilson', 'casildo', 'maldaner', 'coutinho', 'jorge', 'darcy', 'ribeiro', 'edison', 'lobão', 'eduardo', 'suplicy', 'elcio', 'alvares', 'emília', 'fernandes', 'epitãcio', 'cafeteira', 'ernandes', 'amorim', 'esperidião', 'amin', 'fernando', 'bezerra', 'flaviano', 'melo', 'francelino', 'pereira', 'freitas', 'neto', 'geraldo', 'melo', 'gerson', 'camata', 'gilberto', 'miranda', 'gilvam', 'borges', 'guilherme', 'palmeira', 'hugo', 'napoleão', 'humberto', 'lucena', 'iris', 'rezende', 'jader', 'barbalho', 'jefferson', 'peres', 'joel', 'de', 'hollanda', 'jonas','lindberg', 'pinheiro', 'josaphat', 'marinho', 'josé', 'agripino', 'josé', 'alves', 'josé', 'bianco', 'josé', 'eduardo', 'dutra', 'josé', 'fogaça', 'josé', 'ignãcio', 'ferreira', 'josé', 'roberto', 'arruda', 'josé', 'sarney', 'joão', 'frança', 'joão', 'rocha', 'júlio', 'campos', 'junia', 'marise', 'lauro', 'campos', 'leomar', 'quintanilha', 'levy', 'dias', 'lucídio', 'portella', 'luís', 'alberto', 'de', 'oliveira', 'lúcio', 'alcântara', 'lúdio', 'coelho', 'marina', 'silva', 'marluce', 'pinto', 'mauro', 'miranda', 'nabor', 'júnior', 'ney', 'suassuna', 'odacir', 'soares', 'onofre', 'quinan', 'osmar', 'dias', 'pedro', 'piva', 'pedro', 'simon', 'ramez', 'tebet', 'renan', 'calheiros', 'roberto', 'freire', 'roberto', 'requião', 'romero', 'jucã', 'romeu', 'tuma', 'ronaldo', 'cunha', 'lima', 'sebastião', 'bala', 'rocha', 'sérgio', 'machado', 'teotonio', 'vilela', 'filho', 'valmir', 'campelo', 'vilson', 'kleinübing', 'waldeck', 'ornelas', 'amazonino', 'mendes', 'antonio', 'mariz', 'josé', 'eduardo', 'marco', 'maciel', 'garibaldi', 'alves', 'filho', 'césar', 'dias', 'albano', 'franco', 'josé', 'serra', 'júlio', 'eduardo', 'armando', 'dantas', 'do', 'nascimento', 'raimundo', 'lopes', 'de', 'mélo', 'telmo', 'vieira', 'airton', 'chaves', 'rocha', 'djalma', 'falcão', 'geraldo', 'lessa', 'alcides', 'falcão', 'dalmãcio', 'lúcio', 'roseni', 'das', 'graças', 'silva', 'soares', 'maria', 'benigna', 'jucã', 'paulo', 'guerra', 'marcos', 'rocha', 'de', 'andrade', 'josé', 'de', 'sousa', 'teixeira', 'marcos', 'guerra', 'joão', 'oliveira', 'itapary', 'leopoldo', 'peres', 'raimundo', 'vieira', 'da', 'silva', 'lisboa', 'edson', 'gomes', 'da', 'silva', 'eloi', 'almeida', 'blairo', 'maggi', 'david', 'ruas', 'vicente', 'da', 'riva', 'zanete', 'cardinal', 'antonio', 'kato', 'jorge', 'haddad', 'sandro', 'fabi', 'antonio', 'carlos', 'júnior', 'pedro', 'paulo', 'djalma', 'bessa', 'pedro', 'ubirajara', 'gabriel', 'nunes', 'aires', 'marques', 'albino', 'mendes', 'francisco', 'benjamim', 'archimedes', 'pedreira', 'franco', 'luiz', 'girão', 'regina', 'assumpção', 'roberto', 'faria', 'de', 'medeiros', 'afrânio', 'augusto', 'figueiredo', 'joão', 'augusto', 'o.', 'figueiredo', 'josé', 'lino', 'da', 'silveira', 'filho', 'orlando', 'dordallo', 'júnior', 'laércio', 'barbalho', 'juvêncio', 'dias', 'donato', 'cardoso', 'esmerino', 'arruda', 'reginaldo', 'duarte', 'wellington', 'roberto', 'juarez', 'leitão', 'renato', 'cunha', 'lima', 'silva', 'júnior', 'ulisses', 'riedel', 'péricles', 'vilhena', 'leonel', 'paiva', 'wagner', 'bustolo', 'pacheco', 'pedro', 'segundo', 'seleme', 'heitor', 'reis', 'nivaldo', 'krüger', 'luiz', 'pastore', 'jorge', 'mathias', 'júnior', 'josé', 'luiz', 'de', 'souza', 'clodoaldo', 'torres', 'waldemar', 'borges', 'rodrigues', 'ricardo', 'santos', 'artur', 'valente', 'luzia', 'toledo', 'elói', 'portela', 'manoel', 'lira', 'parente', 'jonice', 'tristão', 'benício', 'sampaio', 'antônio', 'rufino', 'aquiles', 'nogueira', 'jackson', 'nogueira', 'nilo', 'teixeira', 'campos', 'doutel', 'de', 'andrade', 'abdias', 'nascimento', 'manoel', 'torres', 'de', 'araújo', 'aroldo', 'azevedo', 'janilson', 'ferreira', 'nathanias', 'ribeiro', 'v.', 'shosten', 'lúcio', 'messan', 'luiz', 'tirello', 'otoniel', 'machado', 'edir', 'domeneghini', 'guerino', 'pizone', 'flãvio', 'bernardo', 'jeckel', 'leonidas', 'rangel', 'xausa', 'josé', 'saad', 'luiza', 'maria', 'da', 'silveira', 'marques', 'josé', 'batista', 'neto', 'fernando', 'matusalém', 'bello', 'parga', 'moreira', 'mendes', 'victor', 'sadek', 'filho', 'berenice', 'luz', 'da', 'silva', 'pedro', 'josé', 'de', 'lima', 'reis', 'parimé', 'brasil', 'cilene', 'lago', 'salomão', 'claudomiro', 'lima', 'pinheiro', 'henrique', 'loyola', 'hélio', 'campos', 'estefânia', 'rubine', 'marchetti', 'geraldo', 'althoff', 'dilso', 'cechin', 'sandra', 'guidi', 'lincoln', 'da', 'cunha', 'pereira', 'mãrcio', 'antônio', 'bueno', 'miguel', 'reale', 'júnior', 'joão', 'felício', 'dulce', 'pereira', 'cardoso', 'valdiolanda', 'teófilo', 'eraldo', 'machado', 'de', 'lemos', 'totó', 'cavalcante', 'antônio', 'luiz', 'maia', 'benedito', 'aparecido', 'da', 'silva', 'albino', 'boaventura', 'josé', 'bonifãcio', 'francisco', 'escórcio', 'aluízio', 'bezerra', 'hildebrando', 'pascoal', 'ildefonço', 'cordeiro', 'marcio', 'bittar', 'joão', 'tota', 'marcos', 'afonso', 'nilson', 'mourão', 'sérgio', 'barros', 'maguito', 'vilela', 'hugo', 'biehl', 'leodegar', 'tiscoski', 'eni', 'voltolini', 'gervãsio', 'silva', 'antônio', 'carlos', 'konder', 'reis', 'joão', 'pizzolatti', 'joão', 'matos', 'carlito', 'merss', 'edison', 'andrino', 'luci', 'choinacki', 'vicente', 'caropreso', 'edinho', 'bez', 'paulo', 'gouvêa', 'fernando', 'coruja', 'renato', 'vianna', 'rafael', 'greca', 'josé', 'janene', 'abelardo', 'lupion', 'nelson', 'meurer', 'max', 'rosenmann', 'rubens', 'bueno', 'flãvio', 'arns', 'affonso', 'camargo', 'dilceu', 'sperafico', 'luiz', 'carlos', 'hauly', 'odílio', 'balbinotti', 'alex', 'canziani', 'luciano', 'pizzatto', 'ricardo', 'barros', 'í\x8dris', 'simões', 'josé', 'carlos', 'martinez', 'osmar', 'serraglio', 'chico', 'da', 'princesa', 'werner', 'wanderer', 'hermes', 'parcianello', 'gustavo', 'fruet', 'moacir', 'micheletto', 'mãrcio', 'matos', 'padre', 'roque', 'airton', 'roveda', 'dr.', 'rosinha', 'basílio', 'villani', 'santos', 'filho', 'josé', 'borba', 'oliveira', 'filho', 'vic', 'pires', 'franco', 'anivaldo', 'vale', 'paulo', 'rocha', 'valdir', 'ganzer', 'raimundo', 'santos', 'zenaldo', 'coutinho', 'jorge', 'costa', 'gerson', 'peres', 'nicias', 'ribeiro', 'josué', 'bengtson', 'giovanni', 'queiroz', 'nilson', 'pinto', 'deusdeth', 'pantoja', 'cabo', 'júlio', 'aécio', 'neves', 'maria', 'do', 'carmo', 'lara', 'walfrido', 'mares', 'guia', 'eliseu', 'resende', 'romeu', 'queiroz', 'danilo', 'de', 'castro', 'maria', 'elvira', 'lincoln', 'portela', 'marcio', 'reinaldo', 'moreira', 'odelmo', 'leão', 'carlos', 'melles', 'saraiva', 'felipe', 'carlos', 'mosconi', 'rafael', 'guerra', 'vittorio', 'medioli', 'mãrio', 'de', 'oliveira', 'jaime', 'martins', 'mauro', 'lopes', 'roberto', 'brant', 'zaire', 'rezende', 'lael', 'varella', 'virgílio', 'guimarães', 'fernando', 'diniz', 'pimenta', 'da', 'veiga', 'aracely', 'de', 'paula', 'narcio', 'rodrigues', 'ibrahim', 'abi-ackel', 'eduardo', 'barbosa', 'josé', 'militão', 'cleuber', 'carneiro', 'paulo', 'delgado', 'joão', 'magalhães', 'philemon', 'rodrigues', 'romel', 'anizio', 'glycon', 'terra', 'pinto', 'antônio', 'do', 'valle', 'ronaldo', 'vasconcellos', 'nilmãrio', 'miranda', 'olimpio', 'pires', 'joão', 'fassarella', 'sérgio', 'miranda', 'gilmar', 'machado', 'tilden', 'santiago', 'osmânio', 'pereira', 'ademir', 'lucas', 'edmar', 'moreira', 'herculano', 'anghinetti', 'silas', 'brasileiro', 'pedro', 'wilson', 'lidia', 'quinan', 'juquinha', 'euler', 'morais', 'barbosa', 'neto', 'geovan', 'freitas', 'luiz', 'bittencourt', 'pedro', 'canedo', 'norberto', 'teixeira', 'pedro', 'chaves', 'zé', 'gomes', 'da', 'rocha', 'ronaldo', 'caiado', 'roberto', 'balestra', 'vilmar', 'rocha', 'airton', 'cascavel', 'luciano', 'castro', 'luis', 'barbosa', 'alceste', 'almeida', 'francisco', 'rodrigues', 'salomão', 'cruz', 'oscar', 'andrade', 'confúcio', 'moura', 'agnaldo', 'muniz', 'sérgio', 'carvalho', 'nilton', 'capixaba', 'zila', 'bezerra', 'magela', 'pedro', 'celso', 'wigberto', 'tartuce', 'tadeu', 'filippelli', 'jofran', 'frejat', 'dr.', 'benedito', 'dias', 'jurandil', 'juarez', 'eduardo', 'seabra', 'fãtima', 'pelaes', 'joão', 'grandão', 'marisa', 'serrano', 'marçal', 'filho', 'flãvio', 'derzi', 'geraldo', 'cândido', 'augusto', 'farias', 'givaldo', 'carimbão', 'joão', 'caldas', 'josé', 'thomaz', 'nonô', 'luiz', 'dantas', 'olavo', 'calheiros', 'regis', 'cavalcante', 'arthur', 'virgílio', 'átila', 'lins', 'francisco', 'garcia', 'josé', 'melo', 'dr.', 'luiz', 'fernando', 'pauderney', 'avelino', 'silas', 'câmara', 'vanessa', 'grazziotin', 'badu', 'picanço', 'evandro', 'milhomen', 'sérgio', 'barcellos', 'aroldo', 'cedraz', 'benito', 'gama', 'claudio', 'cajado', 'coriolano', 'sales', 'eraldo', 'tinoco', 'francistônio', 'pinto', 'geddel', 'vieira', 'lima', 'geraldo', 'simões', 'gerson', 'gabrielli', 'haroldo', 'lima', 'jaime', 'fernandes', 'jairo', 'azi', 'jairo', 'carneiro', 'jaques', 'wagner', 'joão', 'almeida', 'joão', 'leão', 'jonival', 'lucas', 'junior', 'jorge', 'khoury', 'josé', 'carlos', 'aleluia', 'josé', 'lourenço', 'josé', 'rocha', 'josé', 'ronaldo', 'jutahy', 'junior', 'leur', 'lomanto', 'luiz', 'moreira', 'manoel', 'castro', 'mãrio', 'negromonte', 'nelson', 'pellegrino', 'nilo', 'coelho', 'paulo', 'braga', 'paulo', 'magalhães', 'pedro', 'irujo', 'roland', 'lavigne', 'saulo', 'pedrosa', 'ursicino', 'queiroz', 'waldir', 'pires', 'walter', 'pinheiro', 'adolfo', 'marinho', 'almeida', 'de', 'jesus', 'aníbal', 'gomes', 'antonio', 'cambraia', 'ariosto', 'holanda', 'arnon', 'bezerra', 'chiquinho', 'feitosa', 'eunício', 'oliveira', 'inãcio', 'arruda', 'josé', 'linhares', 'josé', 'pimentel', 'leo', 'alcântara', 'manoel', 'salviano', 'marcelo', 'teixeira', 'moroni', 'torgan', 'pinheiro', 'landim', 'raimundo', 'gomes', 'de', 'matos', 'rommel', 'feijó', 'sérgio', 'novais', 'ubiratan', 'aguiar', 'vicente', 'arruda', 'feu', 'rosa', 'joão', 'coser', 'josé', 'carlos', 'elias', 'magno', 'malta', 'marcus', 'vicente', 'max', 'mauro', 'nilton', 'baiano', 'ricardo', 'ferraço', 'rita', 'camata', 'jovair', 'arantes', 'lúcia', 'vânia', 'nair', 'xavier', 'lobo', 'albérico', 'filho', 'césar', 'bandeira', 'costa', 'ferreira', 'eliseu', 'moura', 'francisco', 'coelho', 'gastão', 'vieira', 'joão', 'castelo', 'mauro', 'fecury', 'neiva', 'moreira', 'nice', 'lobão', 'paulo', 'marinho', 'pedro', 'fernandes', 'pedro', 'novais', 'remi', 'trinta', 'roberto', 'rocha', 'sarney', 'filho', 'sebastião', 'madeira', 'ben-hur', 'ferreira', 'nelson', 'trad', 'pedro', 'pedrossian', 'celcita', 'pinheiro', 'lino', 'rossi', 'murilo', 'domingos', 'pedro', 'henry', 'wilson', 'santos', 'elcione', 'barbalho', 'josé', 'priante', 'adauto', 'pereira', 'armando', 'abílio', 'avenzoar', 'arruda', 'carlos', 'dunga', 'damião', 'feliciano', 'domiciano', 'cabral', 'efraim', 'morais', 'enivaldo', 'ribeiro', 'inaldo', 'leitão', 'marcondes', 'gadelha', 'ricardo', 'rique', 'wilson', 'braga', 'andré', 'de', 'paula', 'antônio', 'geraldo', 'armando', 'monteiro', 'carlos', 'batata', 'carlos', 'eduardo', 'cadoca', 'clementino', 'coelho', 'djalma', 'paes', 'eduardo', 'campos', 'fernando', 'ferro', 'inocêncio', 'oliveira', 'joão', 'colaço', 'joaquim', 'francisco', 'josé', 'chaves', 'josé', 'mendonça', 'bezerra', 'josé', 'múcio', 'monteiro', 'luciano', 'bivar', 'luiz', 'piauhylino', 'marcos', 'de', 'jesus', 'osvaldo', 'coelho', 'pedro', 'eugênio', 'ricardo', 'fiuza', 'salatiel', 'carvalho', 'sergio', 'guerra', 'severino', 'cavalcanti', 'átila', 'lira', 'b.', 'sã', 'ciro', 'nogueira', 'herãclito', 'fortes', 'joão', 'henrique', 'marcelo', 'castro', 'mussa', 'demes', 'paes', 'landim', 'themístocles', 'sampaio', 'josé', 'dias', 'aldir', 'cabral', 'alexandre', 'cardoso', 'alexandre', 'santos', 'almerinda', 'de', 'carvalho', 'arolde', 'de', 'oliveira', 'carlos', 'rodrigues', 'carlos', 'santana', 'cornélio', 'ribeiro', 'coronel', 'garcia', 'dino', 'fernandes', 'dr.', 'heleno', 'eber', 'silva', 'eduardo', 'paes', 'eurico', 'miranda', 'fernando', 'gabeira', 'fernando', 'gonçalves', 'francisco', 'dornelles', 'francisco', 'silva', 'iédio', 'rosa', 'jair', 'bolsonaro', 'jandira', 'feghali', 'joão', 'mendes', 'joão', 'sampaio', 'jorge', 'bittar', 'jorge', 'wilson', 'josé', 'carlos', 'coutinho', 'laura', 'carneiro', 'luiz', 'sérgio', 'mãrcio', 'fortes', 'mattos', 'nascimento', 'milton', 'temer', 'miro', 'teixeira', 'paulo', 'baltazar', 'paulo', 'feijó', 'roberto', 'jefferson', 'rodrigo', 'maia', 'ronaldo', 'cezar', 'coelho', 'rubem', 'medina', 'simão', 'sessim', 'vivaldo', 'barbosa', 'wanderley', 'martins', 'ana', 'catarina', 'betinho', 'rosado', 'henrique', 'eduardo', 'alves', 'iberê', 'ferreira', 'laíre', 'rosado', 'lavoisier', 'maia', 'múcio', 'sã', 'ney', 'lopes', 'adão', 'pretto', 'airton', 'dipp', 'alceu', 'collares', 'augusto', 'nardes', 'beto', 'albuquerque', 'caio', 'riela', 'cezar', 'schirmer', 'darcísio', 'perondi', 'enio', 'bacci', 'fernando', 'marroni', 'fetter', 'junior', 'germano', 'rigotto', 'henrique', 'fontana', 'júlio', 'redecker', 'luiz', 'mainardi', 'marcos', 'rolim', 'mendes', 'ribeiro', 'filho', 'nelson', 'marchezan', 'nelson', 'proença', 'osvaldo', 'biolchi', 'paulo', 'gouvêa', 'paulo', 'paim', 'pompeo', 'de', 'mattos', 'roberto', 'argenta', 'synval', 'guazzelli', 'telmo', 'kirst', 'valdeci', 'oliveira', 'waldir', 'schmidt', 'fioravante', 'yeda', 'crusius', 'cleonâncio', 'fonseca', 'ivan', 'paixão', 'jorge', 'alberto', 'josé', 'teles', 'marcelo', 'déda', 'pedro', 'valadares', 'sérgio', 'reis', 'alberto', 'goldman', 'alberto', 'mourão', 'aldo', 'rebelo', 'aloizio', 'mercadante', 'aloysio', 'nunes', 'ferreira', 'andré', 'benassi', 'angela', 'guadagnin', 'antonio', 'carlos', 'pannunzio', 'antonio', 'kandir', 'antonio', 'palocci', 'arlindo', 'chinaglia', 'arnaldo', 'faria', 'de', 'sã', 'arnaldo', 'madeira', 'ary', 'kara', 'wanderval', 'santos', 'celso', 'giglio', 'celso', 'russomanno', 'corauci', 'sobrinho', 'cunha', 'bueno', 'de', 'velasco', 'delfim', 'netto', 'duilio', 'pisaneschi', 'edinho', 'araújo', 'eduardo', 'jorge', 'fernando', 'zuppo', 'franco', 'montoro', 'gilberto', 'kassab', 'iara', 'bernardi', 'jair', 'meneguelli', 'joão', 'herrmann', 'joão', 'paulo', 'cunha', 'jorge', 'tadeu', 'mudalen', 'josé', 'aníbal', 'josé', 'de', 'abreu', 'josé', 'dirceu', 'josé', 'genoíno', 'josé', 'machado', 'lamartine', 'posella', 'luiza', 'erundina', 'maluly', 'netto', 'marcelo', 'barbieri', 'marcos', 'cintra', 'medeiros', 'michel', 'temer', 'milton', 'monti', 'moreira', 'ferreira', 'nelo', 'rodolfo', 'nelson', 'marquezelli', 'neuton', 'lima', 'paulo', 'kobayashi', 'paulo', 'lima', 'professor', 'luizinho', 'ricardo', 'berzoini', 'ricardo', 'izar', 'robson', 'tuma', 'rubens', 'furlan', 'salvador', 'zimbaldi', 'sampaio', 'dória', 'telma', 'de', 'souza', 'vadão', 'gomes', 'valdemar', 'costa', 'neto', 'wagner', 'salustiano', 'xico', 'graziano', 'antônio', 'jorge', 'darci', 'coelho', 'freire', 'júnior', 'igor', 'avelino', 'joão', 'ribeiro', 'osvaldo', 'reis', 'pastor', 'amarildo', 'paulo', 'mourão', 'josé', 'jorge', 'heloísa', 'helena', 'paulo', 'souto', 'paulo', 'hartung', 'luiz', 'estevão', 'gilberto', 'mestrinho', 'alvaro', 'dias', 'alberto', 'silva', 'luiz', 'otavio', 'jorge', 'bornhausen', 'juvêncio', 'da', 'fonseca', 'joão', 'alberto', 'souza', 'josé', 'alencar', 'mozarildo', 'cavalcanti', 'tião', 'viana', 'antero', 'paes', 'de', 'barros', 'luiz', 'pontes', 'maria', 'do', 'carmo', 'alves', 'eduardo', 'siqueira', 'campos', 'amir', 'lando', 'roberto', 'saturnino', 'íris', 'de', 'araújo', 'luiz', 'soares', 'carlos', 'lupi', 'robinson', 'viana', 'maria', 'de', 'fãtima', 'thelma', 'siqueira', 'campos', 'angelo', 'celeste', 'renildo', 'santana', 'valmir', 'amaral', 'joão', 'batista', 'motta', 'adir', 'nichio', 'agnelo', 'alves', 'benedito', 'damasceno', 'evaristo', 'de', 'luca', 'olivir', 'gabardo', 'marcos', 'tavares', 'rodolpho', 'tourinho', 'ribamar', 'fiquene', 'hermes', 'zanetti', 'eliana', 'cunha', 'joão', 'thomé', 'mestrinho', 'nova', 'da', 'costa', 'aelton', 'freitas', 'sebastião', 'riêra', 'josé', 'lélis', 'mãrio', 'calixto', 'paulo', 'elifas', 'vasco', 'furlan', 'ari', 'stadler', 'vicentinho', 'walter', 'natalino', 'celis', 'santin', 'froylan', 'santos', 'agnelo', 'queiroz', 'severino', 'lúcio', 'maria', 'ivone', 'antônio', 'leite', 'albérico', 'cordeiro', 'antonio', 'feijão', 'félix', 'mendonça', 'eujãcio', 'simões', 'roberto', 'pessoa', 'paulo', 'octãvio', 'maria', 'abadia', 'josé', 'carlos', 'fonseca', 'jr', '.', 'josé', 'antonio', 'almeida', 'wellington', 'fagundes', 'antônio', 'joaquim', 'teté', 'bezerra', 'waldemir', 'moka', 'maria', 'lúcia', 'cardoso', 'custódio', 'mattos', 'hélio', 'costa', 'gonzaga', 'patriota', 'valdeci', 'paiva', 'ayrton', 'xerez', 'luisinho', 'miriam', 'reid', 'luiz', 'ribeiro', 'luis', 'carlos', 'heinze', 'eurípedes', 'miranda', 'marinha', 'raupp', 'expedito', 'júnior', 'almir', 'sã', 'robério', 'araújo', 'serafim', 'venzon', 'josé', 'ã\x8dndio', 'emerson', 'kapaz', 'fleury', 'julio', 'semeghini', 'dr.', 'hélio', 'dr.', 'evilãsio', 'josé', 'roberto', 'batochio', 'augusto', 'franco', 'renildo', 'leal', 'babã', 'ricarte', 'de', 'freitas', 'pedro', 'bittencourt', 'tarcísio', 'zimmermann', 'raimundo', 'colombo', 'josé', 'carlos', 'vieira', 'celso', 'jacob', 'antonio', 'carlos', 'biscaia', 'osvaldo', 'sobrinho', 'talvane', 'albuquerque', 'neto', 'bonifãcio', 'de', 'andrada', 'alcione', 'athayde', 'fernando', 'lopes', 'jorge', 'pinheiro', 'ivanio', 'guerra', 'valdomiro', 'meger', 'esther', 'grossi', 'marcos', 'lima', 'antonio', 'joaquim', 'reginaldo', 'germano', 'joão', 'magno', 'yvonilton', 'gonçalves', 'pedro', 'corrêa', 'zulaiê', 'cobra', 'luiz', 'salomão', 'paulo', 'de', 'almeida', 'elton', 'rohnelt', 'ricardo', 'maranhão', 'alberto', 'fraga', 'ricardo', 'noronha', 'aloízio', 'santos', 'nelson', 'otoch', 'helenildo', 'ribeiro', 'carlos', 'cury', 'ronaldo', 'perim', 'antonio', 'carlos', 'mendes', 'thame', 'silvio', 'torres', 'clovis', 'volpi', 'gessivaldo', 'isaias', 'júlio', 'delgado', 'josé', 'aleksandro', 'adelson', 'ribeiro', 'mauro', 'benevides', 'antônio', 'josé', 'mota', 'joaquim', 'brito', 'renato', 'silva', 'euler', 'ribeiro', 'kãtia', 'abreu', 'udson', 'bandeira', 'rainel', 'barbosa', 'mãrio', 'assad', 'júnior', 'alvaro', 'gaudencio', 'neto', 'josé', 'luiz', 'clerot', 'nilmar', 'ruiz', 'oswaldo', 'soler', 'rogerio', 'silva', 'saulo', 'coelho', 'chico', 'sardelli', 'francisco', 'sousa', 'wilson', 'cunha', 'josé', 'egydio', 'edir', 'oliveira', 'aldo', 'arantes', 'josé', 'magalhães', 'itamar', 'serpa', 'moacir', 'piovesan', 'moisés', 'lipnik', 'manoel', 'vitório', 'joão', 'carlos', 'bacelar', 'tasso', 'rosado', 'aarão', 'steinbruch', 'abdias', 'neves', 'abdon', 'baptista', 'abdon', 'milanez', 'abel', 'chermont', 'abelardo', 'condurú', 'souza', 'naves', 'adalberto', 'sena', 'adalberto', 'ribeiro', 'aderbal', 'jurema', 'adolpho', 'gordo', 'adolpho', 'franco', 'affonso', 'arinos', 'affonso', 'de', 'albuquerque', 'maranhão', 'affonso', 'camargo', 'affonso', 'celso', 'afrânio', 'lages', 'agenor', 'maria', 'caiado', 'de', 'castro', 'alberto', 'gonçalves', 'alberto', 'pasqualini', 'alcides', 'paio', 'alcindo', 'guanabara', 'cassiano', 'do', 'nascimento', 'collares', 'moreira', 'barbosa', 'lima', 'marcondes', 'filho', 'zacharias', 'de', 'assumpção', 'alexandrino', 'de', 'alencar', 'alfredo', 'da', 'matta', 'alfredo', 'backer', 'alfredo', 'neves', 'alfredo', 'ellis', 'alfredo', 'campos', 'escragnolle', 'taunay', 'alfredo', 'nasser', 'almino', 'affonso', 'almir', 'gabriel', 'almir', 'pinto', 'alô', 'guimarães', 'aloysio', 'chaves', 'aloysio', 'de', 'carvalho', 'altevir', 'leal', 'alvaro', 'adolpho', 'á\x81lvaro', 'de', 'carvalho', 'uchôa', 'cavalcanti', 'á\x81lvaro', 'maia', 'á\x81lvaro', 'mendes', 'á\x81lvaro', 'pacheco', 'á\x81lvaro', 'machado', 'amaro', 'cavalcanti', 'amaury', 'silva', 'leitão', 'da', 'cunha', 'américo', 'lobo', 'paulo', 'de', 'frontin', 'ãngelo', 'carlos', 'muniz', 'silva', 'ferraz', 'anísio', 'de', 'abreu', 'antonino', 'freire', 'antônio', 'bayma', 'gama', 'mello', 'antônio', 'alves', 'silva', 'canedo', 'antônio', 'farias', 'antonio', 'augusto', 'monteiro', 'de', 'barros', 'antonio', 'balbino', 'antônio', 'brício', 'de', 'araújo', 'cruz', 'machado', 'antonio', 'carlos', 'ribeiro', 'de', 'andrada', 'antônio', 'carlos', 'sã', 'e', 'albuquerque', 'coelho', 'rodrigues', 'constantino', 'nery', 'cunha', 'vasconcelos', 'antonio', 'fernandes', 'silva', 'paranhos', 'antônio', 'prado', 'barros', 'carvalho', 'lacerda', 'franco', 'novaes', 'filho', 'barão', 'de', 'estância', 'antonio', 'diniz', 'de', 'siqueira', 'e', 'melo', 'souza', 'castro', 'holanda', 'cavalcanti', 'antonio', 'ferrão', 'antônio', 'azeredo', 'freitas', 'cavalcanti', 'medeiros', 'neto', 'gonçalves', 'chaves', 'gonçalves', 'ferreira', 'antônio', 'gonçalves', 'gomide', 'sã', 'peixoto', 'gomes', 'do', 'amaral', 'antonio', 'jucã', 'antônio', 'jorge', 'antonio', 'caiado', 'mello', 'e', 'souza', 'antonio', 'josé', 'machado', 'esteves', 'junior', 'lomanto', 'júnior', 'dantas', 'antonio', 'luiz', 'maya', 'marquês', 'de', 'inhambupe', 'antônio', 'luiz', 'von', 'hoonholtz', 'visconde', 'de', 'são', 'luis', 'do', 'maranhão', 'antônio', 'massa', 'mendes', 'canale', 'muniz', 'sodré', 'antonio', 'baena', 'amaral', 'furlan', 'visconde', 'de', 'abaeté', 'costa', 'ferreira', 'pereira', 'moacyr', 'pereira', 'oliveira', 'pinheiro', 'guedes', 'chicorro', 'da', 'gama', 'nogueira', 'acioly', 'ramos', 'caiado', 'fernandes', 'braga', 'antônio', 'vieira', 'da', 'soledade', 'mourão', 'vieira', 'apolônio', 'salles', 'aquelino', 'do', 'amaral', 'argemiro', 'de', 'figueiredo', 'aristides', 'lobo', 'aristides', 'rocha', 'arlindo', 'rodrigues', 'armando', 'câmara', 'arnolfo', 'azevedo', 'arnon', 'de', 'mello', 'arnor', 'damiani', 'bernardes', 'filho', 'arthur', 'rios', 'arthur', 'bernardes', 'arthur', 'abreu', 'arthur', 'santos', 'í\x8dndio', 'brasil', 'arthur', 'virgílio', 'artur', 'de', 'souza', 'lemos', 'arthur', 'costa', 'ary', 'vianna', 'attílio', 'fontana', 'attílio', 'vivacqua', 'augusto', 'leite', 'lopes', 'gonçalves', 'augusto', 'de', 'vasconcellos', 'augusto', 'franco', 'maynard', 'gomes', 'gomes', 'de', 'castro', 'simões', 'lopes', 'tavares', 'de', 'lyra', 'oliveira', 'coutinho', 'aurélio', 'vianna', 'aureo', 'mello', 'moura', 'andrade', 'benedicto', 'leite', 'padre', 'calazans', 'benedito', 'valladares', 'benedito', 'ferreira', 'benjamin', 'barroso', 'benjamin', 'farah', 'barroso', 'pereira', 'bernardino', 'monteiro', 'bernardino', 'de', 'campos', 'bernardino', 'viana', 'bernardo', 'sobrinho', 'visconde', 'de', 'souza', 'franco', 'bernardo', 'vasconcelos', 'bernardo', 'monteiro', 'ramos', 'caiado', 'braz', 'abrantes', 'conde', 'de', 'baependi', 'braz', 'carneiro', 'brazílio', 'da', 'luz', 'lopes', 'gama', 'munhoz', 'da', 'rocha', 'marquês', 'de', 'vila', 'real', 'da', 'praia', 'grande', 'nogueira', 'da', 'gama', 'camilo', 'mércio', 'barata', 'ribeiro', 'batista', 'de', 'oliveira', 'visconde', 'de', 'itaúna', 'cândido', 'de', 'abreu', 'marquês', 'de', 'sapucaí', 'cândido', 'luiz', 'maria', 'de', 'oliveira', 'cândido', 'mendes', 'carvalho', 'pinto', 'carlos', 'de', "'", 'carli', 'carlos', 'alberto', 'carlos', 'chiarelli', 'lúcio', 'bittencourt', 'alfredo', 'simch', 'carlos', 'de', 'carli', 'oliveira', 'figueiredo', 'carlos', 'barbosa', 'carlos', 'lyra', 'carneiro', 'de', 'campos', 'carlos', 'calvalcanti', 'carlos', 'lindenberg', 'carlos', 'frederico', 'castrioto', 'gomes', 'de', 'oliveira', 'carlos', 'jereissati', 'magno', 'bacelar', 'carlos', 'vaz', 'de', 'melo', 'tavares', 'bastos', 'mello', 'e', 'mattos', 'celso', 'bayma', 'celso', 'ramos', 'césar', 'cals', 'césar', 'vergueiro', 'cícero', 'de', 'vasconcelos', 'cid', 'sampaio', 'cid', 'sabóia', 'de', 'carvalho', 'claudionor', 'roriz', 'marquês', 'de', 'nazaré', 'cleto', 'nunes', 'clodomir', 'cardoso', 'clodomir', 'millet', 'cristiano', 'ottoni', 'daniel', 'krieger', 'danton', 'jobim', 'dario', 'cardoso', 'dario', 'pereira', 'dinarte', 'mariz', 'diogo', 'feijó', 'diogo', 'fernandes', 'alvares', 'fortuna', 'visconde', 'de', 'cavalcanti', 'dionysio', 'bentes', 'dirceu', 'cardoso', 'dirceu', 'carneiro', 'dirceu', 'arcoverde', 'divaldo', 'suruagy', 'domício', 'gondim', 'visconde', 'de', 'pedra', 'branca', 'visconde', 'de', 'jaguaribe', 'domingos', 'de', 'vellasco', 'domingos', 'vicente', 'neves', 'da', 'rocha', 'durval', 'cruz', 'edgar', 'de', 'arruda', 'edmundo', 'levi', 'eduardo', 'wandenkolk', 'cattete', 'pinheiro', 'elizeu', 'de', 'souza', 'eloy', 'de', 'souza', 'emival', 'caiado', 'dantas', 'barreto', 'enéas', 'faria', 'efigênio', 'salles', 'epitãcio', 'pessoa', 'érico', 'coelho', 'amaral', 'peixoto', 'ernesto', 'dornelles', 'carneiro', 'da', 'cunha', 'marquês', 'de', 'valença', 'etelvino', 'lins', 'euclides', 'vieira', 'euclydes', 'malta', 'eugênio', 'barros', 'eugênio', 'amorim', 'eugênio', 'jardim', 'eunice', 'michilles', 'eurico', 'valle', 'eurico', 'rezende', 'eurípedes', 'aguiar', 'eusébio', 'de', 'queiroz', 'euzébio', 'de', 'andrade', 'eva', 'blay', 'evandro', 'carreira', 'evaristo', 'da', 'veiga', 'evelãsio', 'vieira', 'ezechias', 'da', 'rocha', 'fãbio', 'lucena', 'fausto', 'cabral', 'fausto', 'augusto', 'de', 'aguiar', 'fausto', 'castelo', 'branco', 'feliciano', 'penna', 'feliciano', 'sodré', 'franco', 'de', 'sã', 'felipe', 'schmidt', 'marquês', 'de', 'barbacena', 'i', 'fernando', 'corrêa', 'mello', 'vianna', 'fernando', 'henrique', 'cardoso', 'fernando', 'lobo', 'filinto', 'muller', 'firmino', 'da', 'silveira', 'paim', 'filho', 'pires', 'ferreira', 'firmino', 'rodrigues', 'silva', 'firmo', 'braga', 'flãvio', 'guimarães', 'barão', 'de', 'mamanguape', 'flãvio', 'britto', 'florêncio', 'carlos', 'abreu', 'e', 'silva', 'florentino', 'ã\x81vidos', 'floriano', 'peixoto', 'accioly', 'filho', 'bueno', 'de', 'paiva', 'francisco', 'salles', 'barão', 'de', 'souza', 'queiroz', 'francisco', 'belisãrio', 'soares', 'de', 'souza', 'francisco', 'galloti', 'francisco', 'brito', 'guerra', 'carneiro', 'de', 'campos', 'cunha', 'machado', 'chagas', 'rodrigues', 'assis', 'chateaubriand', 'marquês', 'de', 'são', 'joão', 'de', 'palma', 'rosa', 'e', 'silva', 'soares', 'brandão', 'barão', 'de', 'barra', 'grande', 'menezes', 'pimentel', 'paula', 'cavalcanti', 'silveira', 'lobo', 'paula', 'albuquerque', 'leite', 'e', 'oiticica', 'visconde', 'de', 'niterói', 'paula', 'pessoa', 'rodrigues', 'alves', 'paula', 'souza', 'sã', 'tinoco', 'visconde', 'de', 'inhomirim', 'meira', 'e', 'sã', 'paraíso', 'francisco', 'diogo', 'pereira', 'de', 'vasconcelos', 'conde', 'da', 'boa-vista', 'barros', 'barreto', 'santos', 'pinto', 'duarte', 'filho', 'duarte', 'lima', 'flores', 'da', 'cunha', 'visconde', 'de', 'jequitinhonha', 'francisco', 'glicério', 'rocha', 'fagundes', 'gonçalves', 'martins', 'francisco', 'rollemberg', 'francisco', 'josé', 'furtado', 'leite', 'chaves', 'leite', 'neto', 'rodrigues', 'jardim', 'cunha', 'junior', 'marquês', 'de', 'jacarepaguã', 'francisco', 'mendes', 'de', 'almeida', 'francisco', 'otaviano', 'pessoa', 'de', 'queiroz', 'francisco', 'portela', 'rangel', 'pestana', 'francisco', 'sã', 'marquês', 'de', 'paranaguã', 'xavier', 'da', 'silva', 'paes', 'barreto', 'frederico', 'de', 'almeida', 'e', 'albuquerque', 'frederico', 'serrano', 'gabriel', 'hermes', 'mendes', 'dos', 'santos', 'gabriel', 'salgado', 'silveira', 'martins', 'gaspar', 'velloso', 'gaspar', 'drummond', 'gastão', 'müller', 'genaro', 'pinheiro', 'generoso', 'marques', 'generoso', 'ponce', 'genésio', 'rego', 'geraldo', 'mesquita', 'gervãsio', 'passos', 'getúlio', 'vargas', 'gil', 'goulart', 'gilberto', 'amado', 'gilberto', 'marinho', 'godofredo', 'viana', 'gonçalo', 'rollemberg', 'guido', 'mondin', 'guilherme', 'de', 'campos', 'gustavo', 'capanema', 'gustavo', 'richard', 'hamilton', 'nogueira', 'heitor', 'dias', 'hélio', 'gueiros', 'helvídio', 'nunes', 'henrique', 'santillo', 'henrique', 'diniz', 'henrique', 'coutinho', 'henrique', 'de', 'la', 'rocque', 'henrique', 'novaes', 'henrique', 'almeida', 'henrique', "d'avila", 'hercílio', 'luz', 'herculano', 'bandeira', 'ferreira', 'pena', 'heribaldo', 'vieira', 'hermenegildo', 'de', 'moraes', 'carneiro', 'leão', 'hugo', 'ramos', 'hydekel', 'freitas', 'visconde', 'de', 'assis', 'martins', 'iram', 'saraiva', 'irapuan', 'costa', 'júnior', 'irineu', 'bornhausen', 'irineu', 'machado', 'ismar', 'de', 'góes', 'italívio', 'coelho', 'itamar', 'franco', 'ivan', 'bonato', 'cunha', 'lima', 'ivo', "d'aquino", 'jacinto', 'furtado', 'de', 'mendonça', 'paes', 'mendonça', 'jaison', 'barreto', 'jamil', 'haddad', 'jarbas', 'maranhão', 'jarbas', 'passarinho', 'jefferson', 'de', 'aguiar', 'jerônimo', 'monteiro', 'dix-huit', 'rosado', 'teixeira', 'junior', 'viveiros', 'figueira', 'de', 'mello', 'jerônimo', 'monteiro', 'filho', 'coimbra', 'bueno', 'jessé', 'freire', 'barão', 'de', 'laguna', 'ii', 'joão', 'abrahão', 'joão', 'agripino', 'joão', 'alfredo', 'américo', 'de', 'souza', 'joão', 'antônio', 'de', 'miranda', 'joão', 'antônio', 'rodrigues', 'de', 'carvalho', 'meira', 'filho', 'joão', 'baptista', 'accioly', 'júnior', 'baptista', 'laper', 'joão', 'barbalho', 'vasconcelos', 'torres', 'joão', 'bosco', 'joão', 'lobo', 'marquês', 'de', 'aracati', 'joão', 'arruda', 'joão', 'cleofas', 'coelho', 'lisboa', 'joão', 'cordeiro', 'silva', 'carrão', 'barão', 'de', 'antonina', 'rego', 'melo', 'lima', 'teixeira', 'joão', 'lyra', 'mattos', 'leão', 'joão', 'calmon', 'joão', 'menezes', 'braga', 'júnior', 'viriato', 'de', 'medeiros', 'joão', 'evangelista', 'de', 'faria', 'lobato', 'joão', 'florentino', 'meira', 'de', 'vasconcelos', 'paula', 'e', 'souza', 'gilvan', 'rocha', 'joão', 'gomes', 'da', 'silveira', 'mendonça', 'barão', 'de', 'moraim', 'lameira', 'bittencourt', 'visconde', 'de', 'alcântara', 'jones', 'rocha', 'junqueira', 'lima', 'guimarães', 'visconde', 'de', 'sinimbú', 'joão', 'luís', 'alves', 'marquês', 'de', 'paranaguã', 'ii', 'joão', 'mangabeira', 'pereira', 'da', 'silva', 'barão', 'de', 'cotegipe', 'pacheco', 'de', 'oliveira', 'joão', 'pedro', 'joão', 'pedro', 'dias', 'vieira', 'castro', 'pinto', 'joão', 'pinheiro'])
other = np.array(['srs','srª','srªs','exª'])

sw = nltk.corpus.stopwords.words('portuguese')

sw.extend(senator_name)
sw.extend(other)




regex = r"(?u)\b[^\W\d]{3,}\b" 

## tokenization (vocabulary) + tfidf matrix ##
## min frequency = 50, max frequency = 95%,
## token pattern = lowercase unigrams with at least 3 alphabetical, non-numeric characters ##

vectorizer = TfidfVectorizer(min_df= 50,  max_df = 0.95, stop_words = sw, token_pattern = regex)

X = vectorizer.fit_transform(data['TEXT'])
y = data['CLASS']

features = vectorizer.get_feature_names()
#print(features)

print(X.shape)

## splitting the sample in test and training ##



random_state = np.random.RandomState(0)
X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=0.33, random_state=random_state)

print (X_train.shape)
print (X_test.shape)
print (Y_train.shape)
print (Y_test.shape)

## naive bayes classifier ##

clf = MultinomialNB().fit(X_train, Y_train)


print(clf.score(X_train, Y_train)) ### classifier's accuracy on training data ###
print(clf.score(X_test, Y_test)) ### classifier's accuracy on "out-of-sample" data ###

y_pred = clf.predict(X_test)


# Making the Confusion Matrix


cm = confusion_matrix(Y_test, y_pred)
print(cm)


target_names = ['Left', 'Center','Right']
print(classification_report(Y_test, y_pred, target_names=target_names))

## top 200 tokens ##

class_labels = clf.classes_

def print_top200(vectorizer, clf, class_labels):
    """Prints features with the highest coefficient values, per class"""
    feature_names = vectorizer.get_feature_names()
    for i, class_label in enumerate(class_labels):
        top200 = np.argsort(clf.coef_[i])[-200:]
        print("%s: %s" % (class_label,
              " ".join(feature_names[j] for j in top200)))
    
print(print_top200(vectorizer, clf, class_labels))
